This paper proposes a novel sequence-to-sequence (seq2seq) model with a musical note position-aware attention mechanism for singing voice synthesis (SVS). A seq2seq modeling approach that can simultaneously perform acoustic and temporal modeling is attractive. However, due to the difficulty of the temporal modeling of singing voices, many recent SVS systems with an encoder-decoder-based model still rely on explicitly on duration information generated by additional modules. Although some studies perform simultaneous modeling using seq2seq models with an attention mechanism, they have insufficient robustness against temporal modeling. The proposed attention mechanism is designed to estimate the attention weights by considering the rhythm given by the musical score. Furthermore, several techniques are also introduced to improve the modeling performance of the singing voice. Experimental results indicated that the proposed model is effective in terms of both naturalness and robustness of timing.
translated by 谷歌翻译
最近的文本到语音(TTS)的质量与人类的质量相当。但是,其在口语对话中的应用尚未得到广泛研究。这项研究旨在实现与人类对话非常相似的TT。首先,我们记录并抄录实际自发对话。然后,提出的对话TTS分为两个阶段:第一阶段,各种自动编码器(VAE) - VITS或高斯混合物变化自动编码器(GMVAE) - 培训了训练,从端到端文本对语音(VIT),最近提出的端到端TTS模型。从语音中提取潜在的口语表示的样式编码器与TTS共同培训。在第二阶段,对风格预测指标进行了训练,以预测从对话历史中综合的说话风格。在推断期间,通过将样式预测器预测的语言样式表示为VAE/gmvae-vits,可以以适合对话背景的样式合成语音。主观评估结果表明,所提出的方法在对话级别的自然性方面优于原始VIT。
translated by 谷歌翻译
本文提出了一种具有多粒度潜变量的分层生成模型,以综合表达语音。近年来,将细粒度的潜在变量引入了文本到语音合成中,使得韵律和讲话方式的精细控制能够进行综合演讲。然而,当通过从标准高斯先前抽样获得这些潜变量时,言语的自然度降低。为了解决这个问题,我们提出了一种用于建模细粒度潜在变量的新框架,考虑到输入文本,分层语言结构和潜在变量的时间结构的依赖性。该框架包括多粒子变形AutoEncoder,条件先前和多级自回归潜伏转换器,以获得不同的时间分辨率潜变量,并通过拍摄来对较粗级别的潜入变量进行样本考虑到输入文本。实验结果表明,在合成阶段在没有参考信号的情况下采样细粒潜变量的适当方法。我们拟议的框架还提供了整个话语中说话风格的可控性。
translated by 谷歌翻译
这项研究使用来自不同模式的小配对数据实现了描述和动作之间的双向翻译。相互生成描述和动作的能力对于机器人在日常生活中与人类合作至关重要,这通常需要一个大型数据集,该数据集可维护两种模态数据的全面对。但是,配对的数据集构造昂贵,很难收集。为了解决这个问题,本研究提出了一种双向翻译的两阶段培训方法。在提出的方法中,我们训练经常性的自动编码器(RAES),以使用大量非生产数据进行描述和动作。然后,我们对整个模型进行了修订,以使用小配对数据绑定其中间表示。由于用于培训预训练的数据不需要配对,因此可以使用仅行为的数据或大型语言语料库。我们使用由运动捕获动作和描述组成的配对数据集对我们的方法进行了实验评估。结果表明,即使要训练的配对数据量很小,我们的方法也表现良好。每个RAE的中间表示的可视化表明,相似的作用是在簇位置上编码的,并且相应的特征向量很好地排列。
translated by 谷歌翻译
在扰动环境下,成群质和自我组织关键性(SoC)可能有助于鲁棒计算。在临界状态下在计算系统中实现逻辑门是研究弥撒和SOC的作用的有趣方式之一。在这里,我们研究了蜂窝自动机,生命游戏(GL),异步更新和实现概率逻辑门的行为,通过使用异步GL来实现概率逻辑门。我们发现异步G1显示相变,即1衰减的状态的密度在关键点处衰减,并且临界点处的系统具有异步GL中最多的可计算性。我们在异步GL中实现和或键入临界,显示出良好的性能。由于调整扰动在操作逻辑门中发挥着重要作用,我们的研究揭示了概率逻辑门中操纵与扰动之间的干扰。
translated by 谷歌翻译
文本AutoEncoders的最新进展显着提高了潜在空间的质量,这使得模型能够从聚合的潜伏向量生成语法和一致的文本。作为此属性的成功应用程序,无监督的意见摘要模型通过解码输入的聚合潜伏向量来生成摘要。更具体地,它们通过简单的平均值执行聚合。然而,关于矢量聚合步骤如何影响生成质量的知之甚少。在这项研究中,我们通过检查潜在空间和生成的摘要来重新审视常用的简单平均方法。我们发现,由于汇总潜在向量中的意外$ L_2 $ -NORM收缩,我们将倾向于从简单的潜在潜在的潜在潜伏的潜伏向量产生过度通用的摘要。为了克服这个问题,我们开发了一个框架COOP,它使用输入输出字重叠搜索潜在向量聚合的输入组合。实验结果表明,COC成功减轻了摘要载体退化问题,并在两个意见摘要基准上建立了新的最先进的表现。代码可用于\ url {https://github.com/megagonlabs/coop}。
translated by 谷歌翻译